智能论文笔记

强化学习旨在通过与动态未知的环境的互动来学习最佳政策。许多方法依赖于价值函数的近似来得出近乎最佳的策略。在部分可观察到的环境中，这些功能取决于观测和过去的动作的完整顺序，称为历史。在这项工作中，我们从经验上表明，经过验证的复发性神经网络在内部近似于这种价值函数，从而在内部过滤了鉴于历史记录的当前状态的后验概率分布，称为信念。更确切地说，我们表明，随着经常性神经网络了解Q功能，其隐藏状态与与最佳控制相关的状态变量的信念越来越相关。这种相关性是通过其共同信息来衡量的。此外，我们表明，代理的预期回报随着其经常性架构在其隐藏状态和信念之间达到高度相互信息的能力而增加。最后，我们表明，隐藏状态与变量的信念之间的相互信息与最佳控制无关，从而通过学习过程降低。总而言之，这项工作表明，在其隐藏状态下，近似可观察到的环境的Q功能的经常性神经网络从历史上复制了足够的统计量，该统计数据与采取最佳动作的信念相关的部分相关。

translated by 谷歌翻译

Warming-up recurrent neural networks to maximize reachable multi-stability greatly improves learning

Gaspard Lambrechts , Florent De Geeter , Nicolas Vecoven , Damien Ernst , Guillaume Drion

分类：机器学习

2021-06-02

培训恢复的神经网络在时间依赖性变长时很难。因此，在需要长期记忆的基准上，训练标准的门控单元，例如门控复发单元（GRU）和长期短期记忆（LSTM）仍然是一项艰巨的任务。在这项工作中，我们表明，尽管大多数经典网络在初始化时只有一个稳定的平衡，但是只有在网络稳定平衡的数量增加后，需要长期内存的任务学习；一种称为多稳定性的属性。通常，最初单一的网络不容易获得多稳定性，从而使长期依赖性的学习变得困难。这种洞察力导致了一种新颖的，一般的方法，可以通过称为“热身”的程序来初始化任何经常性网络连接，以提高其任意长时间依赖性的能力。此初始化过程旨在最大化网络可及的多稳定性，即可以通过相关输入轨迹达到的网络中吸引者的数量。在训练之前，使用随机梯度下降对特定设计的损失进行预热。我们展示了信息恢复原状，序列分类和强化学习基准测试，这些基准会大大改善多种复发细胞类型的复发性神经网络性能，但有时会阻碍精度。因此，我们引入了一个平行的经常性网络结构，具有部分热身，该结构被证明可以极大地改善序列长期依赖性的学习，同时保持高水平的精度。当需要长期记忆时，这种方法为提高任何经常性单元格类型的学习能力提供了一个通用框架。

translated by 谷歌翻译

据我们所知，所有用于前列腺癌的计算机辅助检测和诊断（CAD）系统（PCA）检测仅考虑双参数磁共振成像（BP-MRI），包括T2W和ADC序列，同时排除了4D灌注序列，该序列排除了4D灌注序列，该序列不包括4D灌注序列，该序列不包括T2W和ADC序列。但是，是此诊断任务的标准临床方案的一部分。在本文中，我们质疑将灌注成像中信息整合到深神经体系结构中的策略。为此，我们评估了几种方法来在U-NET等U-NET中编码灌注信息，还考虑了早期融合策略和中期融合策略。我们将多参数MRI（MP-MRI）模型的性能与基于219 MP-MRI考试的私有数据集的基线BP-MRI模型进行了比较。从动态对比度增强的MR检查得出的灌注图显示出对PCA病变的分割和分级性能的积极影响，尤其是对应于洗涤曲线最大斜率以及TMAX灌注图的3D MR体积。无论融合策略如何中型融合策略，也与最新技术相比，还达到了竞争性的科恩的喀巴评分。

translated by 谷歌翻译

光谱滤波理论是一个显着的工具，可以了解用核心学习的统计特性。对于最小二乘来，它允许导出各种正则化方案，其产生的速度超越风险的收敛率比Tikhonov正规化更快。这通常通过利用称为源和容量条件的经典假设来实现，这表征了学习任务的难度。为了了解来自其他损失功能的估计，Marteau-Ferey等。已经将Tikhonov正规化理论扩展到广义自助损失功能（GSC），其包含例如物流损失。在本文中，我们进一步逐步，并表明通过使用迭代的Tikhonov正规方案，可以实现快速和最佳的速率，该计划与优化中的近端点方法有本质相关，并克服了古典Tikhonov规范化的限制。

translated by 谷歌翻译